54岁的Jürgen Schmidhuber出生于德国,是瑞士人工智能实验室(IDSIA)的研发主任,被称为
递归神经网络之父。Schmidhuber本人创立的公司Nnaisense正专注于人工智能技术研发。此前,他开发的算法让人类能够与计算机对话,还能让智能手机将普通话翻译成英语。
学术生涯
于尔根·施密德胡伯(Jürgen Schmidhuber)在德国慕尼黑慕尼黑工业大学完成了本科(1987 年)和博士(1991 年)学习,并从 2004 年到 2009 年在那里任教。自 1995 年以来,他一直担任瑞士人工智能研究所 (IDSIA) 的主任。从 2009 年起,他同时担任瑞士卢加诺大学的人工智能教授。
在 20 世纪 80 年代,反向传播对于人工神经网络中具有长信用分配路径的深度学习效果不佳。为了克服这个问题,Schmidhuber(1991)提出了一种循环神经网络(RNN)层次结构,它使用预测编码来学习多个自组织时间尺度的内部表示,这可以极大地促进下游深度学习。
1991 年,Schmidhuber 发表了对抗性神经网络,它们以零和博弈的形式相互竞争,其中一个网络的收益就是另一个网络的损失。 其中第一个网络是一个生成模型,用于对输出模式的概率分布进行建模。第二个网络通过梯度下降学习来预测环境对这些模式的反应,这被称为“人工好奇心”。 2014 年,这一原理被用于生成对抗网络(GAN)发扬光大。
Schmidhuber 指导了他的学生 Sepp Hochreiter 于1991 年完成的毕业论文,并称其为“机器学习史上最重要的文献之一”。 它不仅测试了神经历史压缩器(the neural history compressor),还分析并克服了梯度消失问题。这催生了称为长短期记忆(LSTM)的深度学习方法,这是一种循环神经网络(RNN)。LSTM 已成为 20 世纪被引用最多的神经网络。 到 2010 年代,LSTM 成为包括语音识别和机器翻译在内的各种自然语言处理任务的主导技术,并广泛应用于 Google Translate 和 Siri 等商业技术中。
2009年至2012年9月期间,Schmidhuber 团队开发的深度/循环神经网络(NN)赢得了八次国际模式识别竞赛。 2017年,他的一个团队还获得了NIPS强化学习大赛的冠军。
自 2018 年以来,Transformers 通过 ChatGPT 等大型语言模型取代了 LSTM,成为自然语言处理领域的主导神经网络架构。早在 1992 年,Schmidhuber 也发表了与之有共通之处的神经网络架构,目前被称为具有线性自注意力的 Transformer(a Transformer with linearized self-attention)。
学术论战
Schmidhuber 认为,他和其他研究人员对深度学习领域的贡献没有得到足够的认可,而杰弗里·辛顿 (Geoffrey Hinton)、约书亚·本吉奥 (Yoshua Bengio) 和扬·勒昆 (Yann LeCun) 则因在深度学习方面的工作而分享了 2018 年图灵奖。他在 2015 年写了一篇“严厉的”文章,认为 Hinton、Bengio 和 Lecun“大量引用了对方”,但“没有赞扬在他们之前的先驱者”。
同为AI领域的前辈级人物,Schmidhuber开创性成果等身,但获得的声誉和认可度似乎总与期望值有很大差距。2018年深度学习三巨头:Yoshua Bengio、Geoffrey Hinton、Yann LeCun荣获图灵奖时,也有不少的人质疑:图灵奖为什么没颁给LSTM之父Jürgen Schmidhuber?
一些人认为,Schmidhuber的重大成就由于他的对抗性性格而被低估。“schmidhubered”一词在人工智能领域中被开玩笑地用来形容Schmidhuber公开挑战其他研究人员工作是否具备原创性的习惯,这种做法被人工智能领域的一些人视为年轻研究人员的“成人礼”。
荣誉
Schmidhuber 于 2013 年获得国际神经网络协会亥姆霍兹奖(the Helmholtz Award),并于 2016 年获得 IEEE 计算智能协会神经网络先锋奖 ,以表彰其“对深度学习和神经网络等人工智能领域的开创性贡献”。他也是欧洲科学与艺术学院(the European Academy of Sciences and Arts)的院士。2017年他被任命为瑞士技术科学院院士。
他被人称为“LSTM之父”,也被称为“(现代)人工智能之父”或类似称号,然而,Schmidhuber 本人将 Alexey Grigorevich Ivakhnenko 称为“深度学习之父”,并赞扬了许多更早期的人工智能先驱的工作。